查看原文
其他

量化模型 | 基于Logistict回归的评分卡模型

游悦 京东技术 2019-05-30

来这里找志同道合的小伙伴!

 摘 要 

信用评分模型是将模型变量WOE编码方式离散化之后运用logistic回归模型进行的一种二分类变量的广义线性模型。利用信用评分模型得到的客户信用评分,可作为是否准予授信或为授信额度和利率提供参考。

在实际应用中,评分卡模型的作用日渐突出。如:评分卡模型可帮助银行、金融机构等更有效地管理资产风险,优化账户管理策略。银行通过信用评分模型,降低误判率,提高收入,并且能准确预测违约率,控制不良贷款比率。

今天,为大家介绍基于Logistic回归的评分卡模型,分享量化团队分析师构建评分卡模型的全过程,并逐步介绍模型算法、模型评价指标等具体实现方式。


评分卡分类


A卡(Applicationscore card)新客户申请审批:

  • 更准确地评估申请人的未来表现(违约率),降低坏帐率

  • 加快(自动化)审批流程, 降低营运成本

  • 增加审批决策的客观性和一致性,提高客户满意度


B卡(Behaviorscore card)现有客户管理:

  • 更好的客户管理策略, 提高赢利

  • 减少好客户的流失

  • 对可能拖欠的客户,提早预警


C卡(Collectionscore card)早期催收:

  • 优化催收策略,提高欠帐的回收率

  • 减少不必要的催收行为,降低营运成本


模型开发全流程


用一张图为大家展示,量化团队分析师开发评分卡模型的全流程,以及具体实现方式:


Step1:变量初选


通过等频分箱或最优分箱离散原始数据,计算IV值,剔除预测能力差的指标。


信息值(information value,简称”IV”)是常用的进行自变量筛选的指标,计算简单,并且有经验的判断法则,IV值的计算公式为:


Step2:变量剔除


通过变量聚类或者计算相关系数的方法剔除变量,这一步主要目的是解决多重共线性问题。多重共线性(Multicollinearity)是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。


Step3:数据离散化


数据离散化的目的是降低异常值的影响,同时增加模型的可解释性,通过BESTKs、卡方合并、决策树等有监督算法将连续变量离散化几个区间,然后进行WOE转换。


证据权重(Weight of Evidence,简称“WOE”)


WOE是对原始自变量的一种编码形式,要对一个变量进行WOE编码,需要首先把这个变量进行分组处理(也叫离散化、分箱)。


Step4:初步建模


将原始指标用WOE进行替换后,用logistic回归估计参数,并剔除参数估计为负的变量。


下面先来了解一下信用评分卡模型所依赖的Logistic回归算法。何为“回归”呢?当有一些数据点,用一条直线对这些点进行拟合(该直线称为最佳拟合直线),这个拟合过程就叫回归。那么,利用Logistic回归进行分类的主要思想就是根据现有数据对分类边界线建立回归公式,以此进行分类。“回归”源于最佳拟合,即使用最优化算法,找到最佳拟合参数集。


1)Logistic回归的实现:对于输入特征,每个特征乘以一个回归系数,将所有结果值相加带入Sigmoid函数中,从而得到一个0~1之间的数值,根据实际情况设定相关阈值,从而达到预测的目的。


2)最优化算法:如何找到最优回归系数,是Logistic回归的关键问题。

即:找到上式的机器学习中常用的最优化算法有:梯度下降法(GradientDescent)、牛顿法和拟牛顿法(Newton's method & Quasi-NewtonMethods)、共轭梯度法(Conjugate Gradient)等等,接下来简单介绍梯度下降法。


3)梯度下降法(Gradient Descent):梯度下降即沿着某函数的梯度方向,找到该函数的最小值,如果梯度记为▽,则函数f(x,y)的梯度为:

则梯度下降算法的迭代公式为:,其中,为步长。


Step5:人工干预


根据指标的业务意义、上下限、人数占比、违约比例调整分箱规则,即业务干预。


Step6:WOE更新


人工干预后,得到新的分箱,根据新分箱,更新WOE。


Step7:模型更新


更新完WOE之后,利用新的WOE值估计回归参数。


Step8:分数转化


根据Logistic回归估计的参数、分箱的WOE来确定每个区间的得分。


Step9:模型效果评估


利用AUC、KS等指标评估模型的预测能力。


1)AUC(Area Under Curve)


AUC实际上就是ROC曲线下的面积,ROC曲线反映了分类器的分类能力,结合考虑了分类器输出概率的准确性,AUC量化了ROC曲线的分类能力,越大分类效果越好,输出概率越合理。


2)KS (Kolmogorov-Smirnov)


K-S统计量被应用于信用评级模型主要是为了验证模型对违约对象的区分能力,是表现模型区分能力的验证指标;通常,如果模型的K-S统计量越大,表明模型区分正常客户和违约客户的能力越强。


Step10:模型监控


PSI (population stability index) 系统稳定性指数,主要考察了模型预测结果的稳定性,通过对建模样本和监控样本中客户的评分或评级分布的比较来判断模型预测结果的稳定性。系统稳定性指数越小,越稳定,表明监控样本的分数的分布情况和建模样本中的情况越相似,可以预期模型在监控样本中的性能表现和建模样本中的性能表现会很接近。


Step11:评分


下面的小示例,简单为大家展示评分卡及其计分模式:


如果该模型的基础分是50分,比如有个客户,大专毕业,男性,拥有自有住房,工作10年以上,那么他的分数就应该是:Score=50+14+9+24+12=109。


总结


本文介绍了基于Logistic回归的评分卡模型的实现流程,介绍了Logistic算法、IV值和WOE,以及评价模型的指标AUC、ks值、PSI等。在实际应用中,评分卡模型的作用日渐突出。量化团队根据业务需要开发各种不同评分卡模型,并尝试不同算法建模,试图更加科学、准确地构建模型,降低误判率,增加审批的客观性,提高客户的满意度。


RECOMMEND

推荐阅读

重磅丨京东AI研究院在业界顶级人脸检测榜单“WIDER FACE”三项评测排名第一

Cleverdb | 数据库性能展示平台构建之路

运维监控的终极秘籍,盘它

京东AI研究院8篇论文被AAAI 2019收录,国际顶会彰显京东科技实力

京东技术

---关注技术的公众号

长按识别二维码关注

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存